<= retour vers la page des journées
Complémentarités CADBIOM/Frappes de Processus pour l'analyse de TGFß
Using Mutual Information and Answer set Programming to refine Acidithiobacillus ferrooxidans whole genome transcription regulation network
Transcriptional regulatory network models can be built from DNA sequence data by locating the binding sites, defined by position specific score matrices, and identifying transcription factors by homology with known ones in other organisms.
In general these models are complex because the pattern matching methods for binding site location are unspecific. In one test case over 50% of the binding sites had a false positive probability equal to one. Also there is ambiguity on the specificity of transcription factors: there are several genes that encode proteins that could bind to a given motif.
In the case of Acidithiobacillus ferrooxidans ATCC23270 the network reconstruction based on sequence data results in 182 motifs represented in 27435 sites, 50.9% of them showing q-value equal to 1, that is, they can not be distinguished from a false positive.
In this work we propose the use of differential expression experimental data, in the form of a Mutual Information index, as constraints expressed as Answer Set Programming rules, to determine a minimal set of motif and transcription factors which constitute a genetic regulatory network compatible with the experimental evidence.
The resulting network reduces the number of transcription factors in 18, while still being compatible with experimental data.
Une extension de la logique de Hoare pour l'identification de paramètres dans les réseaux génétiques
L'obstacle majeur rencontré lorsqu'on veut modéliser des réseaux biologiques est l'identification des nombreux paramètres qui définissent la dynamique du système. La logique temporelle est devenue une des principales méthodes formelles appliquées à cette question depuis les travaux fondateurs autour de BIOCHAM et de SMBioNet. Ici, on propose une nouvelle méthode formelle, plus orientée vers l'exploitation directe des traces observées biologiquement. Dans le cadre des réseaux génétiques, une extension de la logique de Hoare et du calcul de la plus petite précondition fournit un ensemble de contraintes sur les paramètres qui sont nécessaires et suffisantes pour que cette trace existe dans le modèle mathématique discret. Cette approche pourrait aisément être généralisée à une large classe de modèles discrets de systèmes complexes.
Découverte de points d'intérêts à la fois génomiques et métaboliques à l'aide de la notion de modules de k-SIPs
Étant donnés le génome et le réseau métabolique d'une bactérie, nous avons étudié la façon dont les chaînes de réactions successives du réseau métabolique sont catalysées à l’aide d’enzymes produites par des gènes proches. Par proche, nous entendons, selon la préférence du biologiste, aussi bien une localisation voisine des gènes sur le génome qu'une similarité des gènes entre eux, comme leur similarité d'expression.
Ces travaux ont été réalisés en utilisant notre méthode d'intégration nommée SIPPER, qui génère un graphe intégrant à la fois l'information génomique et métabolique, puis calcule dedans des ensembles de chemins, nommés k-SIPs, qui gardent la cohérence entre l'information génomique et métabolique.
L’étude des k-SIPs obtenus sur E. coli nous a permis de mettre à jour des mesures caractérisant certaines entités biologiques comme la densité génomique qui permet l’identification d’opérons métaboliques. Nous avons ensuite utilisé cette mesure afin de constituer des modules de k-SIPs, une façon compacte de représenter des k-SIPs d'interêt. En appliquant ces travaux sur A. ferrooxidans, une grande partie de ces modules semble, d'après nos observations préliminaires, correspondre à de potentiels groupes de gènes dont la variation d'expression est corrélée.
POGG et les Oursins
Dans cet exposé, je présenterai les différents avancées réalisées autour de l'outil d'inférence de chaînes de Markov pondérées (POGG). Ces avancées seront illustrées sur l'application Oursins.
Modélisation de la régulation traduction dépendante de la coiffe m7GTP des ARNm en réponse à la fécondation chez l’oursin
Nous nous intéressons à la régulation traductionnelle qui est responsable de plus de la moitié des variations de concentration des protéines au sein de la cellule eucaryote. La fécondation chez l'oursin représente un paradigme pour l’étude de la régulation traductionnelle et permet d'étudier de façon originale, l'impact de la quantité de certains régulateurs traductionnels sur l'efficacité de la synthèse protéique. Après avoir produit un modèle de réseau traductionnel, en utilisant l'environnement Biocham, construit sur une base de données qui inclut 51 réactions et 74 complexes moléculaires, nous développons un nouveau modèle basé sur les successions d'évènements et de leurs effets sur les quantités observées.
Apprentissage de grammaires: vers les grammaires de graphes
Dans cet exposé, une large revue des techniques d'apprentissage de grammaires est proposée. L'exposé sera focalisé à la fin sur le cas particulier de l'apprentissage des grammaires de graphes qui fournit un cadre formel tant à la comparaison (modèles) de graphes qu'aux techniques de réécriture de graphes. Des problématiques algorithmiques nouvelles apparaissent dans ce cadre.
Hiérarchie de modèles du cycle cellulaire
Dans cet exposé, je montrerai comment les différents modèles réactionnels du cycle cellulaire dans biomodels.net s'organisent en une hiérarchie de modèles reliés par des relations de réduction formalisée par la notion d'épimorphisme de sous-graphes (SEPI) et me focaliserai sur les interactions structure-dynamique dans des modèles couplés avec l'horloge circadienne.
Réduction de modèles à plusieurs échelles de temps - signalisation et cycle cellulaire
Je montrerai comment tenir compte des échelles de temps des processus biochimiques pour simplifier les grands réseaux de régulation intervenant en signalisation et dans la régulation du cycle cellulaire. La méthode présentée identifie d'abord les ensembles d'espèce quasi-stationnaires et des réactions à quasi-équilibre. A partir de ces deux ensembles, la simplification s'effectue via des opérations de re-écriture de graphe.
Modeling of Protein Signaling Networks using Answer Set Programming and Boolean logic
Given a Protein Signaling Network (PSN) created using in silico methods or extracted from literature, and experimental observations under different experimental conditions, we want to “optimize” the PSN in order to maximize its fit to the experimental data while penalizing model size. To this end, we propose the use of Answer Set Programming (ASP)[1] and boolean logic to model and solve the combinatorial problem at hand.
Recall that a PSN can be viewed as a directed and signed graph where the nodes represent proteins, and signed edges represent the activations or inhibitions within the network. Moreover, we can use boolean logic to model the interactions within the network by saying that the value (active or inactive) of each non-input node, it is given by a combination (using: AND, OR and NOT) of its input nodes.
ASP is a declarative problem solving paradigm, in which a problem is encoded as a logical program such that its answer sets represent solutions to the problem. ASP offers a rich modeling language along with highly efficient inference engines based on Boolean constraint solving technology.
Therefore, the combinatorial problem that we tackled here consist on finding the optimum boolean model in terms of fit to experimental data and model size. This problem was previously addressed in [3] where they presented a software that solves the optimization problem using the same formalism but with the implementation of a genetic search algorithm. It is also described in [2] where several research groups worked together to compare their approaches.
This work is being developed in close collaboration with Saez-Rodriguez group (EMBL-EBI) and Torsten Schaub group (University of Potsdam, Germany).
[1] Chitta Baral. Knowledge Representation, Reasoning and Declarative Problem Solving. Cambridge University Press, 2003.
[2] Robert J. Prill, Julio Saez-Rodriguez, Leonidas G. Alexopoulos, Peter K. Sorger, and Gustavo Stolovitzky. Crowdsourcing network inference: The dream predictive signaling network challenge. Sci. Signal., 4(189):mr7, 2011.
[3] Julio Saez-Rodriguez, Leonidas Alexopoulos, Jonathan Epperlein, Regina Samaga, Douglas Lauffenburger, Steffen Klamt, and Peter Sorger. Discrete logic modelling as a means to link protein signalling networks with functional analysis of mammalian signal transduction. Molecular Systems Biology, 5, 2009.
Reconstruction de réseaux métaboliques via ASP
Les méthodes de reconstruction de réseaux métaboliques utilisent la correspondance entre un génome annoté et des bases de données métaboliques pour créer un premier draft métabolique, ce draft étant ensuite amélioré en utilisant notamment des principes basés sur l'optimisation linéaire. Nous allons discuter de l'intérêt d'utiliser de la programmation logique (ASP) pour réaliser cette reconstruction en s'inspirant des travaux de Christian (Mol Syst Biology 2009). L'idée est de s'affranchir des contraintes fortes liées à l'utilisation de l'optimisation linéaire, d'intégrer des connaissances biologiques dans la reconstruction du réseau métabolique, et de sélectionner les modèles en fonction de leur corrélation avec des données d'expressions, qui sont rarement prises en compte dans les approches de reconstruction.